载入天数...载入时分秒... 总访问量次 🎉
MaskBit: Embedding-free Image Generation via Bit Tokens
Authors:
Mark Weber,Lijun Yu,Qihang Yu,Xueqing Deng,Xiaohui Shen,Daniel Cremers,Liang-Chieh Chen
📝Introduction
Masked transformer models 在基于类别条件或者文本条件的图像生成上面已经可以作为自回归模型和扩散模型的代替。这类基于 maked transformer 的方法一般有两个过程:discrete tokenizer 将输入从图像空间映射到一个离散的、压缩的空间;transformer 作为一个生成器在 latent space 中从 masked token 序列中生成图像。
尽管 masked transformer 框架已经取得了很大的成功,但是强大的 tokenizer 的发展细节大都被忽视了,此外,对于基于 VQGAN 的现代 tokenizer 中的感知损失也没有被使用。现在广泛运用的 tokenizer 还是三年前的工作,一些强的 tokenizer 目前还是闭源并且一些实现细节有没有很好的在论文中共享,对于这些模型复现的结果也不尽人意。
鉴于 tokenizer 对于生成的图像质量的重要性,本文做了系统性逐步研究,并训练了一个强大的 VQGAN 作为 tokenizer,称为 VQGAN+,将重建 FID 降到了 1.66
此外,本文提出了基于二进制量化处理,将 latent embedding 映射到 K 维并基于他们的符号值进行量化,这一过程产生了 bit tokens,其中每个 token 用 K 个 bit 表示,这种方式被证明出学习到了高层语义信息。
在以上基础上,本文提出了 MaskBit,利用 bit tokens 来生成图像,以缓解需要学习新 embedding 的需要(在 VQGAN 中从 token indices 到新的 embedding 值)